MatMulFusion

矩阵乘法融合(可选偏置和激活),计算:

\[C = \operatorname{act}(A \times B + \text{bias})\]

其中 A 形状为 \(M\times K\)B\(K\times N\)C 与可选的 bias\(M\times N\)。 激活 act 支持:

  • 0: 无激活(Identity)

  • 1: ReLU

  • 2: ReLU6

输入:
  • A - 输入矩阵 A(行优先,连续存储)。大小 M×K。

  • B - 输入矩阵 B(行优先,连续存储)。大小 K×N。

  • bias - 偏置矩阵(可为 NULL,大小 M×N)。

  • M, N, K - 维度参数。

  • activation_type - 激活类型,取值 {0,1,2}。

  • core_mask(可选) - 核掩码(仅适用于共享存储版本)。

输出:
  • C - 输出矩阵(行优先,大小 M×N)。

支持平台:

FT78NE MT7004

备注

  • 复数类型的激活逐分量应用于实部与虚部。

  • 请确保输入按行优先连续布局,且不发生类型范围溢出;int16/int32 计算未做饱和裁剪。

  • 共享存储版本要求地址位于 GSM/DDR/SMC 等共享可见空间。

共享存储版本:

void i16_matmulfusion_s(int16_t *A, int16_t *B, int16_t *C, int16_t *bias, int M, int N, int K, int activation_type, int core_mask)
void i32_matmulfusion_s(int32_t *A, int32_t *B, int32_t *C, int32_t *bias, int M, int N, int K, int activation_type, int core_mask)
void fp_matmulfusion_s(float *A, float *B, float *C, float *bias, int M, int N, int K, int activation_type, int core_mask)
void dp_matmulfusion_s(double *A, double *B, double *C, double *bias, int M, int N, int K, int activation_type, int core_mask)
void c64_matmulfusion_s(float complex *A, float complex *B, float complex *C, float complex *bias, int M, int N, int K, int activation_type, int core_mask)
void c128_matmulfusion_s(double complex *A, double complex *B, double complex *C, double complex *bias, int M, int N, int K, int activation_type, int core_mask)

C调用示例:

 1#include <stdio.h>
 2#include <stdbool.h>
 3
 4int main(int argc, char* argv[]) {
 5    float *A = (float *)0xA0000000;     // DDR
 6    float *B = (float *)0xA1000000;     // DDR
 7    float *C = (float *)0xA2000000;     // DDR
 8    float *bias = (float *)0xA3000000;  // DDR,可为 NULL
 9    int M = 512, N = 512, K = 512;
10    int activation_type = 1;            // ReLU
11    int core_mask = 0xff;               // 8 核
12    fp_matmulfusion_s(A, B, C, bias, M, N, K, activation_type, core_mask);
13    return 0;
14}

私有存储版本:

void i16_matmulfusion_p(int16_t *A, int16_t *B, int16_t *C, int16_t *bias, int M, int N, int K, int activation_type)
void i32_matmulfusion_p(int32_t *A, int32_t *B, int32_t *C, int32_t *bias, int M, int N, int K, int activation_type)
void fp_matmulfusion_p(float *A, float *B, float *C, float *bias, int M, int N, int K, int activation_type)
void dp_matmulfusion_p(double *A, double *B, double *C, double *bias, int M, int N, int K, int activation_type)
void c64_matmulfusion_p(float complex *A, float complex *B, float complex *C, float complex *bias, int M, int N, int K, int activation_type)
void c128_matmulfusion_p(double complex *A, double complex *B, double complex *C, double complex *bias, int M, int N, int K, int activation_type)

C调用示例:

 1#include <stdio.h>
 2
 3int main(int argc, char* argv[]) {
 4    double *A = (double *)0x10000000;     // L2
 5    double *B = (double *)0x10020000;     // L2
 6    double *C = (double *)0x10040000;     // L2/DDR
 7    double *bias = NULL;                  // 可为 NULL
 8    int M = 128, N = 128, K = 128;
 9    int activation_type = 0;              // None
10    dp_matmulfusion_p(A, B, C, bias, M, N, K, activation_type);
11    return 0;
12}